#Gemini 3.1 Pro
Gemini 3.1 Pro 發佈!清華姚順宇站台宣傳,Karpathy:應用程式商店的時代結束了
剛在印度 AI 峰會上經歷了最尷尬的一幕,Google CEO Sundar Pichai 轉頭就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。時機選得,相當精準(doge)。OpenAI CEO 和 Anthropic CEO 在合影時拒絕握手,而是高舉拳頭。雖然距離上周 Gemini 3 Deep Think 的更新沒幾天,但 3.1 Pro 的定位,Google 說得很清楚——專為那些「一個簡單答案遠遠不夠」的任務而設計,是解決複雜問題的基礎底座。按慣例,0.1 的版本號更新通常意味著小修小補,然而,在測試模型解決全新邏輯模式能力的 ARC-AGI-2 基準上,3.1 Pro 拿下 77.1%,是上代 3 Pro(31.1%)的兩倍多,同時壓過了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。其它方面,科學知識測試 GPQA Diamond 拿了 94.3%,智能體類基準 MCP Atlas 和 BrowseComp 分別拿下 69.2% 和 85.9%。程式設計能力方面,競爭性程式設計基準 LiveCodeBench Pro 的 Elo 評分達到 2887,超過 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上,3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。當然,3.1 Pro 也不是處處碾壓。多模態基準 MMMU Pro 上,上代 3 Pro 反而略勝(81.0% vs 80.5%);啟用工具支援的 Humanity's Last Exam 裡,Opus 4.6 以 53.1% 拿了第一。外界長期批評 Google 工具使用效率不如對手,這次還是沒能完全堵上嘴。第三方知名分析機構 Artificial Analysis 則給出了相當實在的評價。3.1 Pro 在他們的智能指數里排名第一,比 Opus 4.6 高 4 分;整個測試跑下來總計使用約 5700 萬 tokens,完成測試的成本不到 Opus 4.6 的一半。能打又省錢,這個組合還是很香的。Google DeepMind 首席科學家 Jeff Dean 也轉發了一個是用 3.1 Pro 模擬城市規劃、設計全新城市的應用,從零生成可互動的規劃介面 demo。Google 官方部落格則展示了幾個更日常的方向。程式碼動畫方面,3.1 Pro 可以直接根據文字提示生成動態 SVG,因為是純程式碼生成而非像素,任意縮放都不失真,檔案體積也遠小於傳統視訊。複雜系統方面,模型直接接入公開遙測資料流,搭出了一個即時追蹤國際空間站軌道的航天儀表盤。更有意思的是兩個創意類 demo。一個是 3D 椋鳥群模擬,不只是生成視覺程式碼,還支援用手勢操控鳥群,並配有隨鳥群動態變化的生成音樂;另一個是把《呼嘯山莊》的文學氛圍轉化成一個現代個人網站,模型沒有簡單概括情節,而是分析了小說的整體基調,設計出了貼合主人公氣質的介面風格。此外,網友們也貢獻了不少精彩的案例。有人讓 3.1 Pro 生成一個「鬼怪獵人穿越鬼屋」的動態 SVG 循環動畫,結果直接看呆,評價是「Google 這次是認真的」。還有網友認為讓它生成種子破土、根系延伸、莖稈冒出、葉片展開、直到長成完整大樹的互動動畫,每個生長階段的過渡都順滑自然,說這是見過最好的同類效果。去年從 Anthropic 轉投 Google DeepMind 的清華物理系特獎得主姚順宇也站台宣傳:「Gemini 不僅是一個優秀的模型,而且更好的模型正以不可阻擋的方式到來。」當然,這些 demo 加在一起說的是同一件事:模型能做的事,已經從單純的回答問題延伸到完成一整套專業或創意工作流了。價格方面,API 按分級付費,整體和上代 3 Pro 保持一致,但跟 Anthropic Opus 系列比還是相對便宜的。20 萬 tokens 以內,輸入 2 美元 / 每百萬 tokens,輸出 12 美元;超過 20 萬 tokens,輸入漲到 4 美元,輸出 18 美元。搜尋功能每月前 5000 次免費,之後每 1000 次查詢收費 14 美元。現在,開發者可以在 AI Studio、Gemini API、Gemini CLI、智能體開發平台 Google Antigravity 以及 Android Studio;企業使用者在 Vertex AI 和 Gemini Enterprise;普通使用者在 Gemini 應用和 NotebookLM 都能用,後者僅限 Pro 和 Ultra 訂閱。值得注意的是,3.1 Pro 目前只是預覽版,Google 大機率是要繼續打磨好智能體工作流再推正式版,向外界展示出一副還沒使全力的姿態。至於這種能力滲透到個人層面會發生什麼,這讓我聯想到了 OpenAI 聯創 Andrej Karpathy 剛剛發佈的推文:他想用 8 周時間把靜息心率從 50 降到 45,計畫是設定 Zone 2 有氧總時長目標,配合每周一次 HIIT。為了追蹤進展,他花了 1 小時用 vibe coding 做了一個專屬儀表盤。過程比想像中麻煩,Claude 需要對 Woodway 跑步機的雲 API 進行逆向工程,提取原始資料,處理篩選,搭出 Web 前端介面,中間還有公制英制單位混用、日曆日期對不上這些 bug 需要手動發現並要求修復。Karpathy 的感嘆很直接,兩年前這事得花 10 小時,現在 1 小時。但他更在意的是:這本來應該只需要 1 分鐘。他的判斷是,應用程式商店模式正在過時。300 行程式碼、LLM 幾秒生成的專屬工具,沒必要變成一個正經 App 讓你去搜尋下載。他同時也點了行業的問題:99% 的產品仍然沒有 AI 原生的 CLI,還在維護給人看的前端介面,而不是直接提供便於 Agent 呼叫的 API。Woodway 跑步機本質上就是個感測器,結果還得讓 LLM 去逆向工程它,完全沒必要。把 Jeff Dean 的城市規劃 demo 和 Karpathy 的跑步儀表盤放在一起看,其實是同一件事的兩面。當普通人花 1 小時就能為自己做一個高度定製的專屬工具,由 AI 原生感測器和執行器構成、LLM 負責編排、即興生成高度定製專屬應用的時代,就已經近在眼前了。 (APPSO)
Google最新大模型強力刷榜,Gemini 3.1 Pro把壓力給到OpenAI、Anthropic
上周,Google剛剛發佈了Gemini 3 Deep Think工具,旨在解決科學、研究和工程領域面臨的現代挑戰,今天,這款工具背後的核心智能模型——Gemini 3.1 Pro正式推出。此次發佈也是Google首次對Gemini模型進行“0.1”版本形式迭代,市場分析認為,今年該公司發佈策略可能會從定期發佈完整版本轉向更頻繁的增量升級。在廣受歡迎的“人類最後的考試”(Humanity's Last Exam)基準測試中,Gemini 3.1 Pro取得了創紀錄的44.4%的成績,上一代Gemini 3 Pro的成績為37.5%,而OpenAI的GPT 5.2的成績為34.5%,Anthropic的Opus 4.6成績為(40.0%)。在ARC-AGI-2 基準測試中,該測試旨在評估模型解決全新邏輯模式的能力,3.1 Pro的驗證得分達到了77.1%,比3 Pro的推理性能提升了一倍以上,這一結果也超越了GPT-5.2(52.9%)以及Opus 4.6(68.8%)。從官方披露的資料看,Google在多數指標上取得了業內領先優勢,但目前仍有個別基準測試的最好成績被OpenAI和Anthropic佔據,前沿大模型之爭十分焦灼。翻倍的性能和推理能力Google方面表示,3.1 Pro模型專為那些簡單答案不足以解決的任務而設計,它善於運用高級推理能力,幫助使用者應對最棘手的挑戰。無論是需要對複雜主題進行清晰直觀的拆解分析,還是需要將複雜資料整合到單一檢視中,亦或是需要將創意項目變為現實,官方給到一些典型應用案例如:基於程式碼的動畫:3.1 Pro可以直接根據文字提示生成可用於網站的動畫SVG。由於這些動畫完全由程式碼而非像素構成,因此無論縮放比例如何,它們都能保持清晰銳利,並且與傳統視訊相比,檔案大小也極小。複雜系統綜合:3.1 Pro利用高級推理技術彌合了複雜API與使用者友好設計之間的差距,該模型建構了一個即時航空航天儀表盤,成功配置了公共遙測流,可以可視化國際空間站的軌道。互動設計:3.1 Pro可生成複雜3D鳥群舞動畫,生成視覺程式碼並建構沉浸式體驗,使用者可通過手部追蹤操控鳥群,聆聽隨鳥群運動變化的生成式配樂,為研究人員和設計師提供建構感官豐富介面原型的強大方法。創意編碼:3.1 Pro可以將文學主題轉化為功能性程式碼,當被要求為《呼嘯山莊》建構一個現代個人作品集時,該模型並非簡單地概括文字,而是深入分析了小說的氛圍基調,設計出一個簡潔現代的介面,最終建立了一個能夠捕捉主人公精髓的網站。GoogleDeepMind工作人員還演示使用3.1 Pro開發逼真的城市規劃應用程式,該模型可以處理複雜地形、繪製基礎設施圖以及模擬交通資料,從而生成高品質的可視化效果。性價比打壓競爭對手對於開發者而言,3.1 Pro版本最引人注目的亮點不僅在於性能大幅提升,也在於其“性價比”。第三方分析平台Artificial Analysis的評估顯示,Google以更低的成本實現最先進的智能。3.1 Pro版本在人工智慧分析指數中得分最高,其最顯著的優勢在於價格和代幣效率,與Claude Opus 4.6 (max) 和GPT-5.2 (xhigh) 相比,Gemini 3.1 Pro Preview上的運行成本降低了50%以上。如果Google的慣例保持不變,那麼在不久的將來,其速度更快、成本更低的Flash模型很可能也會推出3.1版本更新。加盟Google的華人AI研究員姚順宇發推表示,更好的模型正以勢不可擋的速度湧現。One more Thing隨著大模型廠商的市場競爭加劇,頭部廠商CEO之間的關係並不融洽。在日前印度舉辦的人工智慧影響力峰會上,出現了本年度AI圈最尷尬一幕:OpenAI首席執行長Sam Altman和Anthropic首席執行長Dario Amodei拍照時明顯拒絕牽手,而是雙雙舉起了拳頭,台上其他AI廠商領袖(如Google、Meta)則在拍攝合影時都儀式性挽著胳膊。今天,兩人不和的合影畫面迅速在社交媒體上流傳開來,網友調侃,什麼時候能實現AGI?可能得等到Sam和Dario牽手那天。2026年2月12日,Anthropic完成G輪融資籌集了300億美元,投後估值達3800億美元,該公司透露已實現140億美元的年化收入規模。據彭博社最新爆料,OpenAI正在籌備新一輪融資,據悉此次融資規模有望達1000億美元,公司整體估值可能超過8500億美元,OpenAI首席財務官Sarah Friar此前表示,公司2025年年化營收已超200億美元。面對Google的強力競爭,兩大AI獨角獸都紛紛加碼投入不敢絲毫鬆懈迭代步伐。在本年開局的首輪大模型PK賽中,國內外主流廠商的旗艦模型再次刷出性能新高度,目前備受網友期待的便是傳聞的DeepSeek新一代模型V4,能否創造出更多驚喜可以拭目以待。 (頭部科技)